纠结：有个可疑的混杂因素Z，要不要放到多因素回归模型中呢？

Original 2017-11-28 龚志忠 医咖会

在上期内容中，我们介绍了在多因素回归分析中变量筛选时最常用到的基础方法，即在确定哪些变量可以作为候选变量进入到多因素回归模型时，不仅要满足一定的临床意义，还要参考单因素分析的结果，同时也要兼顾样本量的限制要求。可见，要想在统计学界成为一名合格的侦探，是需要同时具备多方面的技能的。

相关阅读：我该咋筛选变量进入多因素回归？先教你基础几招！

基础的方法固然经典和重要，它是我们在玩转统计的时候必须要掌握的，当然在统计学进阶的道路上，也会不断有新的方法和思路得到发展和应用，比如今天我们要向大家介绍的，如何筛选多因素回归分析候选变量的进阶方法，希望能够拓展一下大家的思路，帮助大家对多因素回归模型的建立加深理解。

研究实例

在基础篇中，我们引用了一篇发表在The New England Journal of Medicine（影响因子：72.4）的文章，在进阶篇中，我们同样引用该期刊发表的另外一篇文章《Phenylpropanolamine and the Risk of Hemorrhagic Stroke》^{^[1]}来进行讲解。

在这篇文章中，作者在统计方法的描述中这样描述：

We calculated unadjusted and adjusted estimates using exact methods and asymptotic methods, respectively. We adjusted for black race (because not all patients and control subjects were successfully matched for this factor), presence or absence of a history of hypertension, and current smoking status. We also adjusted for features that, when added to this model, changed the matched odds ratio by at least 10 percent.

从统计方法的描述中我们可以看出，作者在构建多因素回归模型时，不仅调整了黑人种族、高血压和吸烟状态这三个变量，同时还调整了那些放入模型后会引起Phenylpropanolamine 这个因素的OR值发生改变、且改变至少大于10%的变量。

虽然只有短短的一句话，但却为我们筛选候选变量提供了另一种新的思路。简单来说，假设我们关注的是暴露因素X对结局事件Y的独立作用，那么有一个可疑的混杂因素Z，此时到底要不要将其放入到多因素回归模型中，来调整Z的混杂作用呢？

按照上述文章作者的描述，我们需要去比较在未调整Z和调整Z之后的模型中，其暴露因素X的回归系数（β）或OR值是否发生了变化，以及发生了多大的变化。如果说调整Z的前后β或OR值的变化不大，则认为混杂因素Z的作用较弱，可以不用进行调整；如果说β或OR值的变化超过了10%，此时混杂因素Z的作用就不能轻易忽视，需要将其带入到多因素回归模型中进行调整。

关于回归模型中 “调整”的含义，可以参考前期推送的文章：

嫌疑人X的献身：如何理解回归模型中的"调整"和"独立作用"

分析步骤

上述筛选变量的方法，我们可以分为以下几个步骤进行实现：

1. 构建一个只含有暴露因素X和结局事件Y的基本模型，不调整混杂因素Z。

当然基本模型中也可以加入一些必须要调整的变量。

2. 在基本模型中引入混杂因素Z，调整混杂因素Z的作用。

在基本模型中，一次加入一个待检测的自变量，逐个替换。

3. 比较调整混杂因素Z的前后，暴露因素X的回归系数β值的变化。

即比较β10与β11之间的变化，如若两者相差超过10%，则需要考虑要调整该混杂因素Z的影响。

4. 然后再构建一个完整模型，即把所有拟调整的因素（A、B、C、……、Z）都引入回归模型。

5. 再从完整模型中剔除混杂因素Z。

在完整模型中，一次剔除一个待检测的自变量，逐个替换。

6. 再比较剔除混杂因素Z的前后，暴露因素X的回归系数β值的变化。

即比较β20与β21之间的变化，如若两者相差超过10%，则需要考虑要调整该混杂因素Z的影响。

按照以上几个步骤反复进行操作，虽然看起来较为繁琐，但慢工出细活，相信通过不断的练习，你也一定能在统计学界成为一个好的侦探。

注意事项

在应用上述方法的时候，需要注意以下几点：

1. 关注暴露因素X，而非其他因素

在建立多因素回归模型时，随着自变量个数的增多，每加入一个自变量，其余自变量的回归系数β或OR值都会发生一定的变化。我们在界定β或OR值的变化是否大于10%时，并非是指所有自变量的β或OR值变化都大于10%，而是重点关注我们研究中的核心暴露因素X的β或OR值的变化，如果引入某一自变量使得暴露因素X的β或OR值改变量达到了10%，则应考虑将该自变量纳入到多因素回归模型中。

备注：如果是多重线性回归，则主要关注回归系数β值的变化，如果是logistic回归，则主要关注OR值的变化。

2. 关注β或OR值的相对改变量，而非绝对改变量

注意这里的改变量是指，在引入混杂因素Z的前后，暴露因素X的β或OR值的相对改变量为10%，而非绝对改变量0.1。由于β或OR值的大小会受到该自变量的量纲影响，不同单位的自变量，其β或OR值不可比，因此需要计算调整前后的相对改变量。一般设定为10%，也可根据需要设定为5%、15%或20%。

3. 关注调整前后样本量的变化

需要注意的是，考虑到有些待调整的自变量可能存在缺失，因此引入该自变量的前后，模型所用到的样本量可能存在不一致的现象，通常调整后的模型比调整前的模型的样本量要小，此时调整前后的β或OR值就不可比，因此需要保证调整前后样本量保持一致，在调整前要对自变量数据的完整性进行检查。

4. 不要太过于看重P值

P值在统计学神坛中的地位在近几年已经开始遭到统计学家的质疑，因此，小咖建议不要太过于看重P值，尤其是在多因素回归模型中，β或OR值的信息含量更为丰富，其价值远远胜过一个简单的P值。

在这里提到P值，并不是要推翻我们在基础篇中讲到的，可以根据单因素分析的结果，将差异性检验得出P<0.05，甚至可以放宽到P<0.1或者P<0.2的变量，作为候选的协变量纳入到多因素回归分析中，这种方法本身并没有错，在这里只是想提醒大家，不要为了刻意的追求P值而忽略了其他重要的结果。

通过2期内容的介绍和学习，相信大家对于如何筛选多因素回归模型的候选变量的基础方法和进阶方法，都有了一定的掌握。关于这部分的内容，如果大家在进行统计分析时，有自己独到的想法和见解，也欢迎和小咖一起来进行探讨。

参考文献

[1] N Engl J Med. 2001 Apr 5;344(14):1094-5

更多阅读

1. 我该咋筛选变量进入多因素回归？先教你基础几招！

2. 举几个例子，看看多因素分析中可能犯的错

3. 那么多变量，我该选择哪些进入多因素分析呢？

医咖会微信：medieco-ykh

关注医咖会，学习临床研究方法

有临床研究设计或统计难题？以下三种方式来帮你：

加小咖个人微信（xys2016ykf），拉你进统计讨论群和诸多小伙伴一起交流。
使用电脑进入医咖会官网：http://www.mediecogroup.com/，搜索类似问题及答案，或者直接提问！
直接点击左下角“阅读原文”，提出你的难题！

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入